#generación de código

Cerrando el bucle del razonamiento latente con reconstrucción en tiempo de prueba

Descubre cómo ReLAT cierra el bucle del razonamiento latente usando reconstrucción en tiempo de prueba, mejorando precisión en matemáticas un 73.3% en AIME 2024

2026-06-06 · 2 min

Preferencias de los LLM por bibliotecas y lenguajes de programación

Descubre cómo los grandes modelos de lenguaje muestran una fuerte preferencia por Python y NumPy, incluso cuando no son óptimos. Un estudio revela sesgos en la generación de código.

2026-06-06 · 2 min

Arquitectura Microskill: marco modular para código nativo en IA

Descubre cómo Microskill reduce tokens un 90%, duplica compilaciones y elimina violaciones arquitectónicas, con evolución autónoma.

2026-06-06 · 2 min

Razonamiento latente con flujos normalizadores

NF-CoT: razonamiento latente con flujos normalizadores para código eficiente y preciso. Supera a la cadena de pensamiento tradicional.

2026-06-05 · 3 min

CodegenBench: ¿Pueden los LLMs escribir código eficiente entre arquitecturas?

Evalúa CodegenBench: la capacidad de los LLMs para código eficiente en CPU x86, Sunway y Kunpeng. Resultados y limitaciones en arquitecturas especializadas.

2026-06-04 · 3 min

Lotería invisible: señales sutiles influyen en la elección de algoritmo en LLM

Descubre cómo señales sutiles en prompts dirigen la elección de algoritmo en LLM, afectando rendimiento y seguridad. Basado en 46,535 experimentos.

2026-06-04 · 2 min

Síntesis de restricciones semánticas para optimización de trayectorias con LLMs

Descubre cómo los LLMs traducen requisitos de misión en código de optimización de trayectorias para misiones espaciales más seguras y eficientes.

2026-06-04 · 1 min

OckBench: Midiendo la Eficiencia del Razonamiento de LLM

OckBench mide eficiencia de tokens en razonamiento y código. Hasta 5x de diferencia en tokens con misma precisión. Optimiza costos y latencia.

2026-06-04 · 1 min

Cómo Wasmer usó Codex para crear un runtime Node.js en el edge

Descubre cómo Wasmer utilizó Codex para crear un runtime Node.js edge, logrando un desarrollo 20x más rápido y lanzando en semanas en lugar de meses.

2026-06-04 · 1 min

EvoTrainer: Coevolución de políticas LLM y arneses

Descubre EvoTrainer, un marco que coevoluciona políticas LLM y arneses de entrenamiento para superar al RL humano en tareas complejas de software.

2026-06-03 · 2 min

Benchmark para diagnosticar brechas de conocimiento en LLMs con APIs

¿Cómo detectan los LLMs sus carencias al usar APIs? NovelAPIBench ofrece un diagnóstico detallado en 6 categorías. Aprende qué funciona mejor.

2026-06-03 · 3 min

Calibración sin entrenamiento para MoE: evitando ruptura de enrutamiento

Descubre cómo HARC corrige la ruptura de enrutamiento en MoE fusionados sin entrenamiento, usando curvatura hessiana. Ideal para razonamiento y código.

2026-06-03 · 2 min

Aprende de tus errores: Self-Play en árbol para LLMs de código seguro

Descubre cómo Tree-like Self-Play mejora la seguridad en código generado por IA, reduciendo vulnerabilidades en un 24.5% y transfiriendo principios entre lenguajes.

2026-06-03 · 2 min

TurtleAI: Evaluación de modelos multimodales en Turtle Graphics

Descubre TurtleAI, el benchmark que evalúa modelos multimodales en programación visual con Turtle Graphics. Muestra fallos y cómo el ajuste fino mejora un 20%.

2026-06-03 · 2 min

Aletheia: ¿Qué hace funcionar a RLVR para verificadores de código?

Descubre cómo Aletheia revela la receta óptima para entrenar verificadores de código según la escala del modelo. Ahorra costos sin sacrificar precisión.

2026-06-03 · 2 min

MPMWorlds: Simulaciones MPM para inferir y extrapolar dinámicas físicas

Descubre MPMWorlds, un dataset de simulaciones físicas con el Método de Puntos Materiales. Comparamos generación de código y difusión de video para inferir y extrapolar dinámicas. ¡Lee más!

2026-06-02 · 2 min

El actor de amenazas de conocimiento cero y el fin de la divulgación responsable

Descubre cómo la IA permite a atacantes sin conocimientos técnicos generar malware y evadir la ciberseguridad, poniendo fin a la divulgación responsable.

2026-06-02 · 1 min

Comparativa de MLLMs en generación de código para webs interactivas

WebIGBench evalúa MLLMs en generar código de páginas web con interacciones complejas. Descubre los resultados y límites actuales. ¡Lee más!

2026-06-02 · 2 min

Cómo la arquitectura multi-agente impacta la complejidad del código

¿Añadir más agentes a un pipeline de LLM mejora el código? Un estudio con 1,968 observaciones revela que la complejidad estructural se duplica sin ganancia en precisión.

2026-06-02 · 1 min

CodeGolf Bench: benchmark multilingüe de generación concisa de código en LLMs

CodeGolf Bench: benchmark dinámico para evaluar LLMs en generación de código conciso en 60 lenguajes. Modelos de razonamiento lideran en eficiencia.

2026-06-01 · 2 min